热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据仓库|概述|集群环境搭建

数据仓库DW数据来源:爬虫日志采集系统业务数据财务系统数据去向:报表系统、用户画像推荐系统、机器学习、风控系统项目需求分析①数据采集平台搭建②实现用户行为数据仓库的分层

 

数据仓库DW
数据来源:
爬虫 日志采集系统 业务数据 财务系统

数据去向:
报表系统、用户画像
推荐系统、机器学习、风控系统

项目需求分析

① 数据采集平台搭建
② 实现用户行为数据仓库的分层搭建
③ 实现业务数据仓库的分层搭建
④ 针对数据仓库中的数据进行,留存、转化率、GMV(每天交易额)、复购率、活跃等报表行为;

项目框架

技术选型

 

Hadoop集群 端口号、配置文件、JDK、读写流程

采集:
方式一: log日志--->flume--->kafka(API)--->hdfs; 方式二: Logstash(读取日志)-->ELK(存储查询)全文检索引擎-sqoop
DataX导数据;  mysql->sqoop

存储:mysql(存储业务--分析结果) ;ES(存、查都很快)<---->HBase(存快,分析慢); S3

计算:Tez(分析hive中指标)&hive; Flink--Spark

查询:Presto,Impala,Kylin


系统架构图:

日志文件|mysql数据表---分别由flume|sqoop处理--分别交给-->kafka| HDFS
由Yarn统一调度
Hive| Presto负责数据查询;
Azkaban任务调度器
最后可视化;

系统数据流程:

Web/App埋点行为数据->log日志服务器(友盟-第三方日志服务器)->logFile格式->Flume生产-->kafka(kafka(相当于路由池)可以接实时数据、es等)--flume消费-->HDFS
业务交互-->mysql(业务服务器-->Nginx实现负载均衡)->sqoop-->>hdfs--->hive数仓-->把结果存储到mysql

框架版本选型 产品          版本 Hadoop         2.7.2 Flume          1.7.0 Kafka        0.11.0.2 Kafka Manager   1.3.3.22 Hive        1.2.1 Sqoop        1.4.6 MySQL         5.6.24 Azkaban      2.5.0 Java         1.8 Zookeeper      3.4.10 Presto        0.189 集群资源规划设计          服务器hadoop101 服务器hadoop102 服务器hadoop103 HDFS         NameNode      DataNode    DataNode     
            DataNode                SecondaryNameNode Yarn        NodeManager Resourcemanager   NodeManager
                        NodeManager Zookeeper      Zookeeper Zookeeper      Zookeeper Flume(采集日志)    Flume      Flume Kafka         Kafka     Kafka         Kafka Flume(消费Kafka)                    Flume Hive          Hive MySQL         MySQL Presto         Presto

数据生成模块

埋点数据:
ap(产品字段如多个app)
①公共字段
cm(公共字段基本所有安卓手机都包含的字段); cm公共字段;json对象
et事件; et事件字段:json数组

②业务字段(埋点上报的字段,有具体的业务类型)

 事件日志的设计:

 ①商品列表页(loading)

action            动作:开始加载=1,加载成功=2,加载失败=3
loading_time    加载时长:计算下拉开始到接口返回数据的时间,(开始加载报0,加载成功或加载失败才上报时间)
loading_way        加载类型:1-读取缓存,2-从接口拉新数;(加载成功才上报加载类型)
extend1            扩展字段 Extend1
extend2            扩展字段 Extend2
type            加载类型:自动加载=1,用户下拽加载=2,底部加载=3(底部条触发点击底部提示条/点击返回顶部加载)
type1            加载失败码:把加载失败状态码报回来(报空为加载成功,没有失败)
View Code

②商品点击(display)

action    动作:曝光商品=1,点击商品=2,
goodsid    商品ID(服务端下发的ID)
place    顺序(第几条商品,第一条为0,第二条为1,如此类推)
extend1    曝光类型:1 - 首次曝光 2-重复曝光(没有使用)
category    分类ID(服务端定义的分类ID)
View Code

③商品详情页(newsdetail)详情页从哪来

entry            页面入口来源:应用首页=1、push=2、详情页        
推荐阅读
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 字节跳动深圳研发中心安全业务团队正在火热招募人才! ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • 美团优选推荐系统架构师 L7/L8:算法与工程深度融合 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • 在第二课中,我们将深入探讨Scala的面向对象编程核心概念及其在Spark源码中的应用。首先,通过详细的实战案例,全面解析Scala中的类和对象。作为一门纯面向对象的语言,Scala的类设计和对象使用是理解其面向对象特性的关键。此外,我们还将介绍如何通过阅读Spark源码来进一步巩固对这些概念的理解。这不仅有助于提升编程技能,还能为后续的高级应用开发打下坚实的基础。 ... [详细]
  • Hadoop + Spark安装(三) —— 调hadoop
    ***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]
  • 工作原理_一文理解 Spark 基础概念及工作原理
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了一文理解Spark基础概念及工作原理相关的知识,希望对你有一定的参考价值。 ... [详细]
  • Spark常用端口号和Hadoop中常用端口号区分
    Spark中常用端口号区分:-Master进程的通信端口号-7077-Master进程webui查看端口号-8080-Worker进程的通信端口号-7078-Worker进程web ... [详细]
  • 各个组件confspark-env.sh配置spark的环境变量confspark-default.conf配置spark应用默认的配置项和spark-env.sh有重合之处,可在 ... [详细]
  • 本文将带你快速了解 SpringMVC 框架的基本使用方法,通过实现一个简单的 Controller 并在浏览器中访问,展示 SpringMVC 的强大与简便。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 在List和Set集合中存储Object类型的数据元素 ... [详细]
  • Presto:高效即席查询引擎的深度解析与应用
    本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。 ... [详细]
  • 【clienteclipse集群提交运行】:客户端eclipse集群提交mapreduce代码1.需求:在master:8088上,有客户 ... [详细]
author-avatar
史玥Zaira_717
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有